39 research outputs found
Weba euskarazko corpus gisa
The Basque language. just as any other, needs text corpora to survive in the modern world and to be used normally. But Basque corpora are few and small compared to those in other major languages. This is so because other languages have made use of the "Web-as-Corpus" approach , which consists of using the web as a corpus or as a source of texts for corpora. ln this paper, we describe the research carried out in his PhD thesis by the first author, under the supervision of the other two authors, to use the web and automatic methods for Basque corpus building, and also the tools developed and the results obtained. Out of them we can conclude that the "Web-as-Corpus" approach is val id to improve the state of Basque corpora , since with the developed tools we have collected quality corpora of different types (very large general corpora, specialized corpora, comparable corpora ... ) and built a service to query the web as a Basque corpus.Many of these tools and services ha ve already been placed online for their public use.; Euskarak, beste edozein hizkuntzak bezala , testu-corpusak behar ditu mundu modernoan bizirauteko eta normalki erabiltzeko. Alabaina , euskarazko corpusak gutxi eta txikiak dira , beste hizkuntza handiagoenekin konparatuz gero. Hori horrela da beste hizkuntzek "Web-as-Corpus" izeneko planteamendua baliatu dutelako, hau da, weba erabili dutelako corpus gisa edo corpusak osatzeko testu-iturritzat . Artikulu honetan azaltzen dira bere doktorego-tesian lehenengo autoreak, beste bi autoreen zuzendaritzapean, euskarazko corpusgintzarako weba eta metodo automatikoak baliatzeko egindako ikerketak, aratutako tresnak eta lortutako emaitzak . Horietatik ondorioztatu daiteke "Web-as-Corpus" planteamendua baliagarria dela euskarazko corpusen egoera hobetzeko, garatu diren tresna informatikoen bidez weba corpus gisa kontsultatzeko tresna bat eraiki baita eta mota askotako eta kalitatezko corpusak lortu ahal izan baitira (corpus orokor oso handiak, corpus espezializatuak, corpus konparagarriak, .. ). Horietako asko jada online gizartearen eskura jarri dira
Hybrid machine translation guided by a rule-based system
This paper presents a machine translation architecture which hybridizes Matxin, a rulebased system, with regular phrase-based Statistical Machine Translation. In short, the hybrid translation process is guided by the rulebased engine and, before transference, a set of partial candidate translations provided by SMT subsystems is used to enrich the treebased representation. The final hybrid translation is created by choosing the most probable combination among the available fragments with a statistical decoder in a monotonic way.
We have applied the hybrid model to a pair
of distant languages, Spanish and Basque, and
according to our evaluation (both automatic
and manual) the hybrid approach significantly
outperforms the best SMT system on out-of-domain data.Peer ReviewedPostprint (author’s final draft
Deep evaluation of hybrid architectures: simple metrics correlated with human judgments
The process of developing hybrid MT systems
is guided by the evaluation method used to
compare different combinations of basic subsystems.
This work presents a deep evaluation
experiment of a hybrid architecture that
tries to get the best of both worlds, rule-based and statistical. In a first evaluation human assessments were used to compare just the single statistical system and the hybrid one, the rule-based system was not compared by hand because the results of automatic evaluation showed a clear disadvantage. But a second and wider evaluation experiment surprisingly showed that according to human evaluation the best system was the rule-based, the one that achieved the worst results using automatic evaluation. An examination of sentences with controversial results suggested that linguistic well-formedness in the output
should be considered in evaluation. After experimenting with 6 possible metrics we conclude that a simple arithmetic mean of BLEU and BLEU calculated on parts of speech of words is clearly a more human conformant
metric than lexical metrics alone.Peer ReviewedPostprint (author’s final draft
Evolución del número de mujeres en la matrÃcula de los estudios de informática en la Universidad del PaÃs Vasco, UPV/EHU
El objetivo de esta ponencia es propiciar una reflexión sobre por qué cada año es menor el número de mujeres que se matricula en los estudios de informática en la Universidad del PaÃs Vasco. Los datos de matriculación en la UPV/EHU entre los cursos 1998-99 y 2005-06 en las distintas áreas de conocimiento muestran los bajos porcentajes de mujeres en el área técnica, aunque estos porcentajes van subiendo paulatinamente. Sin embargo, las ingenierÃas en informática siguen la tendencia inversa en lo referente al número de mujeres, que va bajando año a año. Se presentan también los datos del estudio realizado en 2004 por Lanbide para la promoción 2000 de la UPV/EHU, donde se puede observar la influencia que la elección de carrera tiene en la inserción en el mundo laboral, en la estabilidad en el empleo, empleos encajados y en el nivel de ingresos, todo ello desde la perspectiva de género
Itzulpen automatikorako gaztelania-euskara patroiak : lehen urratsak
[EU]Lan honetan, adibideetan oinarritutako patroi batzuk sortu ditugu,
erregeletan oinarritutako itzulpen-sistema automatiko bat hobetzeko
asmoz. Patroirik erabilgarrienak emango zituzten adibideak bakarrik
hartzeko, euren erabilera-maiztasunari eta itzulpen automatikoen egokitasunari
erreparatu diegu. Ondoren, adibideetako entitate-izenak
eta zenbakiak orokortu ditugu, elementu horiek aldatuta ere, patroiak
erabili ahal izateko
Una invitación a la participación de la mujer en IngenierÃa Informática
Actualmente el número de alumnas que se matricula en la UPV/EHU es superior al de alumnos. El mundo de la ingenierÃa ha sido y sigue siendo predominantemente masculino, aunque la mujer se vaya incorporando lenta pero paulatinamente. El caso de la informática es especialmente llamativo por el descenso del porcentaje de mujeres a pesar de ser una profesión reciente. En este trabajo presentamos una iniciativa destinada a impulsar la participación de la mujer en el área de la informática
Wikipedia eta itzulpen automatikoa: "harri batez bizpalau xori"
Artikulu honetan elkarlanean egindako proiektu bat aurkezten dugu. Boluntario talde bat bildu dugu espainierazko Wikipediako hainbat artikulu euskarara itzultzeko, baina boluntarioen lana errazteko, Matxin itzultzaile automatikoa erabili dugu aurreitzulpenak sortzeko, eta horrela boluntarioen lana errare eta akatsak dituzten itzulpen automatiko horiek aztertu eta zuzentzea izan da. Lan honekin, batetik, Euskal Wikipedia aberastu dugu, 50.000 hitz berri gehituz. Beste alde batetik, sistema automatikoaren itzulpenak eta posteditatutako bertsio zuzenduekin corpus bat sortu dugu. Corpus hori erabili dugu posteditore estatistiko bat sortzeko, Matxin itzulpen automatikoko sistemaren irteeraren doitasuna % 10ean hobetuz
Construcción de un corpus etiquetado sintácticamente para el euskera
El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente
para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se
asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado
por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de
añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la
dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de
etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones
tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de
dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la
idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for
Basque. In this paper we present first, the basis of the annotation. After examining several
options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES
standards and it is based on the idea of adding to each sentence in the corpus a series of
grammatical relations specifying the dependencies between modifiers and their nucleus. After
the formalism has been presented, we will describe the problems we have found and the
decisions we have taken to solve them. Next we present an example showing the application of
the scheme to an initial corpus. Finally, we present the main conclusions about the applicability
to Basque and future work.Este trabajo se ha realizado dentro del proyecto
"Construcción de una base de datos de árboles
sintácticos y semánticos", subvencionado por el
Ministerio de Educación y Ciencia (PROFIT:
FIT-150500-2002-244)
QUALES: Machine Translation Quality Estimation via Supervised and Unsupervised Machine Learning
La estimación automática de calidad (EAC) de la traducción automática consiste en medir la calidad de traducciones sin acceso a referencias humanas, habitualmente mediante métodos de aprendizaje automático. Un buen sistema EAC puede ayudar en tres aspectos del proceso de traducción asistida por medio de traducción automática y posedición: aumento de la productividad (descartando traducciones automáticas de mala calidad), estimación de costes (ayudando a prever el coste de posedición) y selección de proveedor (si se dispone de varios sistemas de traducción automática). El interés en este campo de investigación ha crecido significativamente en los últimos años, dando lugar a tareas compartidas a nivel mundial (WMT) y a una fuerte actividad cientÃfica. En este artÃculo, se hace un repaso del estado del arte en este área y se presenta el proyecto QUALES que se está realizando.The automatic quality estimation (QE) of machine translation consists in measuring the quality of translations without access to human references, usually via machine learning approaches. A good QE system can help in three aspects of translation processes involving machine translation and post-editing: increasing productivity (by ruling out poor quality machine translation), estimating costs (by helping to forecast the cost of post-editing) and selecting a provider (if several machine translation systems are available). Interest in this research area has grown significantly in recent years, leading to regular shared tasks in the main machine translation conferences and intense scientific activity. In this article we review the state of the art in this research area and present project QUALES, which is under development
LÃnea formativa de inteligencia artificial en la facultad de informática de la UPV-EHU
Con objeto de ampliar la capacitación de sus licenciados en el área de IA ésta facultad ofrece una lÃnea de optatividad que reúne 37 créditos en 7 asignaturas fundamentales. Estas asignaturas se centran en torno a: Sistemas Basados en el Conocimiento, Procesamiento del Lenguaje Natural, Métodos ProbabilÃsticos de la IA, Redes Neuronales e Inferencia EstadÃstica